社区问题应答(CQA)论坛为许多现实生活质疑提供答案。由于大小,这些论坛在机器学习研究人员中非常受欢迎。自动答案选择,答案排名,问题检索,专家查找,事实检查是使用CQA数据执行的示例学习任务。在本文中,我们展示了CQA的第一个波斯数据集PercQA。此数据集包含从最着名的波斯论坛爬行的问题和答案。在数据采集之后,我们在迭代过程中提供严格的注释指南,然后在SemevalcQA格式中注释问题答案对。PercQ包含989个问题和21,915个答案答案。我们将Percqa公开可供使波斯CQA更多的研究。我们还通过使用单语和多语言预先训练的语言模型来构建PercQA中答案选择任务的强大基准
translated by 谷歌翻译
近年来,已经进行了重要的研究活动,可以通过深度学习自动化渠道编码器和解码器的设计。由于通道编码的维度挑战,因此通过深度学习技术设计和训练相对较大的神经通道代码非常复杂。因此,文献中的大多数结果仅限于相对较短的代码,其信息位少于100个。在本文中,我们构建了Productaes,这是一个有效的深度学习驱动(编码器,解码器)对的家族,旨在以可管理的培训复杂性来培训相对较大的通道代码(编码器和解码器)。我们基于经典产品代码的想法,并建议使用较小的代码组件构建大型神经代码。更具体地说,我们没有直接培训编码器和解码器的大型神经代码$ k $ and blocklength $ n $,而是提供了一个框架,需要培训对代码参数的神经编码器和解码器$(n_1,k_1)$和$(n_2,k_2)$,这样$ n_1 n_2 = n $和$ k_1 k_2 = k $。我们的培训结果表明,对于参数守则$(225,100)$和中等长度参数码$(441,196)$,与连续的极性码相比,参数码(225,100)$(225,100)$(225,100)$(225,100)$(225,100)$(225,100)$(225,100)$(225,100)$(225,100)$,与连续的极地码相比取消(SC)解码器。此外,我们的结果表明,涡轮自动编码器(涡轮增压器)和最先进的古典代码有意义。这是设计产品自动编码器和培训大型频道代码的开创性工作的第一项工作。
translated by 谷歌翻译